1
投票
3答案
131 次观看

如何从各种来源检测表格数据

在一个正在进行的实验项目中,我希望能够查看文本数据并检测其是否包含表格格式的数据。当然,有很多情况看起来像表格数据,所以我想知道我需要研究哪种算法来寻找共同特征。 我的第一个想法是编写一个长的switch / case语句,该语句检查由制表符分隔的数据,然后检查由管道符号分隔的数据的另一种情况,然后再以其他方式分隔的数据等的另一种情况,等等。现在当然我意识到我必须要列出一系列要检测的不同事物,但是我想知道是否有比对每种类型进行相对缓慢的搜索更智能的方法来检测这些特征。 我意识到这个问题并不是特别雄辩,所以我希望它有意义。 有什么想法吗? (也不知道如何标记该标签-欢迎提供帮助!)

20
投票
6答案
20927 次观看

知道任何良好的c ++支持向量机(SVM)库吗?

您知道那里有什么不错的c ++ svm库吗 我尝试了libsvm http://www.csie.ntu.edu.tw/~cjlin/ libsvm / ,但到目前为止,我还没吃惊。 我还听说过 SVMLight 和 TinySVM 。你试过了吗?有新玩家吗? 谢谢!

65
投票
4答案
24045 次观看

感知器学习算法未收敛到0

这是我在ANSI C中的感知器实现: #include <stdio.h> #include <stdlib.h> #include <math.h> float randomFloat() { srand(time(NULL)); float r = (float)rand() / (float)RAND_MAX; return r; } int calculateOutput(float weights[], float x, float y) { float sum = x * weights[0] + y...

4
投票
5答案
1638 次观看

如何基于少量证据有效地估计概率?

我几个月来一直在努力寻找答案(用于机器学习应用程序),这似乎不是一个非常困难的问题,但是我是一名软件工程师,并且数学从来都不是我的强项之一。 这是场景: 我有一个(可能是)重量不均匀的硬币,我想弄清楚它升起的可能性。我知道来自同一盒的硬币的平均概率为 p ,我也知道这些概率的标准偏差(称为 s )。 (如果其他硬币的均值和标准差以外的其他汇总属性很有用,我可能也可以得到它们。) 我将硬币抛掷 n 次,并出现 h 次。 幼稚的方法是概率仅为 h / n -但如果n小,则不可能准确。 是否存在一种计算有效的方式(即,不涉及非常大或非常小的数字)来考虑 p 和 s 即使 n 很小...

9
投票
1答案
14896 次观看

MATLAB:自组织地图(SOM)集群

我正在尝试根据身体部位之间的角度对一些图像进行聚类。 从每个图像中提取的特征是: angle1 : torso - torso angle2 : torso - upper left arm .. angle10: torso - lower right foot 因此,输入数据是大小为1057x10的矩阵,其中1057表示图像数,而10表示身体部位与躯干的角度。 同样,testSet是821x10矩阵。 我希望输入数据中的所有行都以88个簇为簇。 然后,我将使用这些群集来查找TestData属于哪些群集? 在以前的工作中,我使用了 K均值聚类,它非常简单。我们只是要求K...

4
投票
1答案
430 次观看

在社交网络中对朋友进行分类

我正面临以下问题: 假设 u 是一个社交网络用户,因此有一个好友列表 F(u)。 分区是函数 F-> G ,其中 G 是一组组,例如高中,大学,工作等。 。 我需要提出算法来划分 F : 输入是 F ,对于 F 中的每个 f 也是 F(f)(列表每个 u 朋友的朋友)。 在运行过程中,允许算法提出 u 问题(例如“对于某些特定用户 v 来说,最佳分组是什么?”)。 问题的数量应保持在最低水平(最低水平并不是一个明确的数字,但我想说的朋友数量的5%似乎是正确的)。 很明显,生成的分区不是最佳的,但可以作为以后改进的起点。 任何想法都将不胜感激 修改:不,这不是功课。...

3
投票
1答案
6323 次观看

如何在Matlab newff方法中设置输出大小

摘要: 我正在尝试根据身体部位之间的角度对某些图像进行分类。 我假设人体由10个部分(如矩形)组成,并找到每个部分的中心,并参考躯干计算每个部分的角度。 我有三个动作类别:“手波行走”。 我的目标是找到哪些测试图像属于哪个动作类别。 事实: TrainSet:1057x10功能集,1057代表图像数。 测试集:821x10 我希望我的输出为3x1矩阵,每行显示动作类别的分类百分比。 第1行:手波 第2列:行走 row3:正在运行 代码: actionCat='H'; [train_data_hw train_label_hw] = tugrul_traindata(...

6
投票
5答案
2927 次观看

求解最近邻居的最佳性能关键算法

我们有一个x,y对的列表。每对代表2D空间上的一个点。我想从该列表中找到最接近的点xq,yq。解决此问题的最佳性能关键算法是什么? Lisp点数不会改变;这意味着我不需要执行插入和删除操作。我只想在此集合中找到目标xq,yq点的最近邻居。 编辑1:谢谢大家!正如Stephan202正确猜测的那样,我想重复做一次。就像一个功能。列表不一定要排序(实际上我不知道如何排序?就像一个主键分别为2列a和y的表?如果有帮助的话,我将对其进行排序)。 我将一次基于列表构造数据结构,然后将在函数中使用此生成的数据结构(如果此过程本身是相关的)。 谢谢雅各布;似乎KD-Tree数据结构是解决问题的一...

117
投票
6答案
53102 次观看

C#中的机器学习库

C#中是否有任何机器学习库?我正在使用类似 WEKA 之类的东西。 谢谢。

2
投票
3答案
286 次观看

如何测试概率估计器的质量?

我创建了一个启发式算法(人工神经网络,但这并不重要)来估计事件的概率(体育比赛的结果,但这也不重要)。给定一些输入,这种启发式方法告诉我该事件的概率是多少。像这样:有了这些输入,B队就有65%的获胜机会。 我有大量输入数据,现在我要为其输入结果(以前玩过的游戏)。我可以使用哪种公式/指标来限定估算器的准确性。 我看到的问题是,如果估算者说该事件的概率为20%,而该事件确实确实发生了。我无法判断我的估算器是对还是错。也许是错误的,并且这次活动的可能性更大。也许是正确的,该事件发生和确实发生的可能性约为20%。也许是错误的,该事件发生的可能性非常低,例如千分之一,但这次恰好发生。 幸运...

8
投票
5答案
667 次观看

基于其他用户喜欢的东西来查找用户想要的东西的算法

我正在考虑编写一个应用程序,以根据家庭成员的喜好对HTPC中的电影进行分类。 我不知道统计信息或AI,但是此处看起来很有趣。我不知道从哪里开始。 这就是我要完成的事情: 撰写来自每个用户喜欢的一组样本,分别评估每个样本属性。例如,也许某个用户非常喜欢西方电影,那么西方流派对该用户来说将具有更大的分量(对于其他属性(例如演员,导演等)也是如此)。 一个用户可以根据其他用户的喜欢获得建议。例如,如果用户A和B都喜欢Spielberg(用户之间的连接),并且用户B喜欢Batman Begins,但是用户A讨厌Katie Holmes,则相应地权衡用户A的电影(再次,例如,每个属性...

-1
投票
3答案
286 次观看

What programs should I learn to be able to do computational modeling?

I've got some free time and I'm looking to learn a programming language or two that I can use for computational modeling (I'm in cognitive science & psychology). I'm not sure if I'll end up doing neural nets, machine learning, AI, or something altogether different, so I'm just looking for a g...

4
投票
3答案
610 次观看

Algorithm for best-effort classification of vector

Given four binary vectors which represent "classes": [1,0,0,0,0,0,0,0,0,0] [0,0,0,0,0,0,0,0,0,1] [0,1,1,1,1,1,1,1,1,0] [0,1,0,0,0,0,0,0,0,0] What methods are available for classifying a vector of floating point values into one of these "classes"? Basic rounding works in most cases: round([0....

22
投票
4答案
22998 次观看

Unable to approximate the sine function using a neural network

I am trying to approximate the sine() function using a neural network I wrote myself. I have tested my neural network on a simple OCR problem already and it worked, but I am having trouble applying it to approximate sine(). My problem is that during training my error converges on exactly 50%, so ...

11
投票
2答案
17997 次观看

Best learning algorithm to make a decision tree in java?

I have a datasets with information like age, city, age of children, ... and a result (confirm, accept). To help modelisation of "workflow", I want to create automatically a decision tree based on previous datasets. I have take a look at http://en.wikipedia.org/wiki/Decision_tree_learning and I ...

0
投票
2答案
911 次观看

Question About VC Dimension

If I have the input space of (1,2,....999). And I have a concept class C, with 10 concepts: C0,C1,C2...C9. Given an input, that input is an element of ci if the it contains the digit i. For example, the number 123 is an element of c1 and c2 and c3. What is the VC Dimension of this concept clas...

12
投票
3答案
4016 次观看

Support vector machines - separating hyperplane question

From what I've seen, seems like the separation hyperplane must be in the form x.w + b = 0. I don't get very well this notation. From what I understand, x.w is a inner product, so it's result will be a scalar. How can be it that you can represent a hyperplane by a scalar + b? I'm quite confuse...

1
投票
1答案
114 次观看

Cluster and rank blogs by logical categories

What kind of algorithm would be good to cluster and rank blogs in logical communities (tech, entertainment, etc...)? An algorithm to cluster and rank blog posts would be even better. Answers accepted are algorithms, pseudo-code, java code or links to explanations on particular algorithms. Upd...

139
投票
8答案
74922 次观看

When should I use genetic algorithms as opposed to neural networks?

Is there a rule of thumb (or set of examples) to determine when to use genetic algorithms as opposed to neural networks (and vice-versa) to solve a problem? I know there are cases in which you can have both methods mixed, but I am looking for a high-level comparison between the two methods.

7
投票
5答案
22701 次观看

Matlab:K-means clustering

I have a matrice of A(369x10) which I want to cluster in 19 clusters. I use this method [idx ctrs]=kmeans(A,19) which yields idx(369x1) and ctrs(19x10) I get the point up to here.All my rows in A is clustered in 19 clusters. Now I have an array B(49x10).I want to know where the rows of this ...

5
投票
2答案
7739 次观看

Using the Apache Mahout machine learning libraries

I've been working with the Apache Mahout machine learning libaries in my free time a bit over the past few weeks. I'm curious to hear about how others are using these libraries.

-2
投票
3答案
3828 次观看

Meaning of -fold

I saw this text while reading wikipedia(http://en.wikipedia.org/wiki/K-means%2B%2B) The authors tested their method with real and synthetic datasets and obtained typically 2-fold improvements in speed, and for certain datasets close to 1000-fold improvements in error. and I'm curious about...

20
投票
8答案
17017 次观看

How to create a good evaluation function for a game?

I write programs to play board game variants sometimes. The basic strategy is standard alpha-beta pruning or similar searches, sometimes augmented by the usual approaches to endgames or openings. I've mostly played around with chess variants, so when it comes time to pick my evaluation function,...

5
投票
4答案
10290 次观看

Matlab - Neural network training

I'm working on creating a 2 layer neural network with back-propagation. The NN is supposed to get its data from a 20001x17 vector that holds following information in each row: -The first 16 cells hold integers ranging from 0 to 15 which act as variables to help us determine which one of the 26 l...

4
投票
4答案
7535 次观看

What is the 11pt average precision metric?

I have two questions 1- what is the "11pt average precision metric"? 2- and how to use it in information retrieval? Thanks

1
投票
1答案
163 次观看

How to filter/sort/rank object model nodes?

I have some kind of object model and I need to filter and sort it's nodes for some kind of property. What kinds of automated systems exist to generate and select properties of the object model that correlate to what I want? (I'm intentionally being abstract and non-specific) I'm thinking of a sy...

24
投票
5答案
4536 次观看

What tried and true algorithms for suggesting related articles are out there?

Pretty common situation, I'd wager. You have a blog or news site and you have plenty of articles or blags or whatever you call them, and you want to, at the bottom of each, suggest others that seem to be related. Let's assume very little metadata about each item. That is, no tags, categories. Tr...

26
投票
5答案
37028 次观看

Algorithm for Hand writing recognition

Is there any specific algorithm for handwriting recognition? The algorithm should recognize the hand written letter. Any one could help would be greatly appreciated in advance. Thank you

46
投票
13答案
25871 次观看

How hard is it to implement a chess engine?

I'm wondering how hard it would be to implement a chess engine. Are there already open-source implementations? It seems that you'd need a scoring function for a given board constellation, and a very fast way of exploring several likely future board constellations. Exploring all possible future ...

17
投票
5答案
11960 次观看

Difference between a linear problem and a non-linear problem? Essence of Dot-Product and Kernel trick

The kernel trick maps a non-linear problem into a linear problem. My questions are: 1. What is the main difference between a linear and a non-linear problem? What is the intuition behind the difference of these two classes of problem? And How does kernel trick helps use the linear classifiers o...